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摘 要 : [目的 /意义 ] 针 对 外 文 期 刊 数据 库 内 容 质 量 的 双 库 与 多 库 指标 的 量化 ,提出 基于 统一 期 刊 空间 的 多 库 比 较 算 法 ， 


实现 任意 多 库 之 间 的 期 刊 识别 和 比 对 , 提 
量 指标 的 内 容 及 其 复 


中 57 个 数据 库 的 JCR 刊 数量 和 独 有 刊 数 量 指标 ,作为 算法 有 效 性 和 准确 性 的 验证 。|[ 结 
资源 评价 指标 系统 的 延伸 研究 ,本 研究 能 帮助 图 书馆 优化 自己 的 馆藏 建设 ,使 得 外 刊 0 


ee 
杀 键 词 : 外 文 期 刊 
和 ee: C250.74 


数据 库 评价 ”内容 质 量 指标 量化 


高 这 些 指标 的 量化 准确 度 。|[ 方 法 /过 程 ] 在 分 析 外 文 期 刊 数据 库 内 容 质 
杂 性 的 基础 上 ,设计 基于 统一 期 刊 空间 的 多 库 比 较 算 法 ,并 利 0 2018 年 DRAA 


结论 ] 作为 各 种 电子 
济 、 合 
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甫 置疑 ,在 移动 阅读 \、 云 阅读 遍地 开花 的 时 代 ， 


台 感 到 有 了 明显 的 差异 。 特 别 是 进入 了 大 数据 时 代 , 数 
据 为 王 的 观念 已 经 深入 人 心 。 内 容 质 量 成 为 了 电子 资 
源 平台 的 核心 竞争 力 , 也 是 图 书馆 建设 电子 资源 时 的 


4 治 是 读者 对 图 书馆 资源 的 利用 上 ,还 是 图 书馆 在 对 
资源 的 采购 中 ,电子 资源 所 占 的 比例 越 来 越 高 ,很 多 图 
将 党 在 电子 资源 的 采购 上 所 花费 的 金额 已 经 超过 了 传 
统 便 纸 质 资源 。 特 别 在 当前 受 新 冠 疫情 的 影响 下 , 怎 
和 用 有 限 的 经 费 最 大 程度 好 保障 电子 资源 的 建设 
服 赛 ,成 为 众多 图 书馆 面临 的 迫切 课题 


三面 对 类 型 多 样 . 价 格 不 非 的 电子 资源 ,从 内 容 质 
量 6 系 统 功能 、 使 用 情况 .成 本 效益 .数据库 商 服务 . 归 


档 和 长 期 保存 等 方面 ,很 多 研究 人 员 提 出 了 自己 的 电 
子 资 源 评 价 指标 ,用 来 指导 图 书馆 进行 电子 资源 的 建 
设 。 对 于 外 文 期 刊 数 据 库 来 说 ,内 容 质量 指标 评价 的 
是 数据 库 中 期 刊 种 类 的 数量 和 质量 ,如 期 刊 数 量 、 现 刊 
数量 /比例 JCR(Journal Citation Reports )/SNIP( Source 
Normalized Impact per Paper) 期 刊 数量 /比例 `, 独 有 刊 数 
量 / 比 例 等 。 因 特 网 发 展 到 现在 ,从 硬件 到 软件 ,从 系 
统 到 应 用 ,电子 资源 服务 平台 的 系统 功能 \ 性 能 可靠 
性 和 易 用 性 等 方面 都 有 了 极 大 的 保障 ,同时 伴随 着 读 
者 信息 素养 的 普遍 提高 ,读者 不 会 对 不 同 的 数据 库 平 


重 中 之 重 。 
因此 ,对 电子 资源 的 内 容 质 量 进行 准确 的 量化 成 
为 电子 资源 评价 的 首要 任务 。 电 子 资源 评价 系统 的 指 
标 , 有 些 是 定量 的 ,有 些 是 定性 的 ,也 有 些 是 半 定 量 半 
定性 的 。 而 内 容 质量 指标 一 般 都 是 定量 的 ,这 就 为 量 
化 这 些 指 标 提 供 了 可 行 性 。 但 是 ,研究 者 一 般 都 关注 
在 应 该 建立 哪些 评价 指标 .采取 何 种 方法 筛选 指标 和 
设置 权重 、 以 及 如 何 验 证 这 些 指标 及 权重 是 否 合理 等 
方面 , 却 鲜 有 论文 述 及 如 何 正 确 地 量化 这 些 指标 。 在 
实际 操作 时 ,大 多 依赖 数据 库 提 供 商 提供 这 些 量化 数 
据 , 但 仅 依靠 数据 库 提 供 商 提供 的 数据 还 是 不 够 的 ， 
为 数据 库 提供 商 不 会 提供 跨 平台 的 数据 库 比 较 数据 。 
针对 这 种 情况 ,笔者 基于 高 校 图 书馆 数字 资源 采购 联 
盟 (Digital Resource Acquisition Alliance of Chinese Aca- 
demic Libraries, DRAA ) 系统 中 的 资源 百科 数据 " ,就 
外 文 期 刊 数据 库 内 容 质 量 方面 的 指标 ,提出 一 种 通用 
的 量化 方法 ,作为 各 种 电子 资源 评价 指标 系统 的 延伸 
研究 ,以 便 优化 图 书馆 外 文 期 刊 数据 库 的 采购 ,让 有 限 
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的 资金 发 挥 最 大 的 效用 。 
2 研究 现状 


随 着 图 书馆 越 来 越 多 地 采购 电子 资源 ,电子 资源 
在 馆藏 发 展 中 占据 着 越 来 越 重 要 的 地 位 ,电子 资源 的 
评估 也 越 来 越 受到 图 书馆 的 重视 。 
国外 的 研究 始 于 20 世纪 90 年 代 后 期 ,其 评价 对 
象 通常 设 定 为 数字 图 书馆 ,以 英美 为 主 的 国家 和 一 些 
国际 机 构 开 展 的 项 目 为 主 。 美 国 图 书馆 研究 协会 的 
“ARL” 电子 图 书馆 服务 评价 (E-METRICS ) 项 目 为 
ARL 成 员 馆 制定 了 一 个 网 络 统计 和 绩效 测度 数据 收集 
手册 ” ; 网 络 电子 资源 在 线 使 用 统计 COUNTER 项 目 
规定 了 四 大 类 数字 资源 的 使 用 统计 规范 中 ;欧洲 图 书 
馆 绩效 评价 和 质量 管理 系统 EQUINOX 项 目 也 设计 了 
自 守 的 数字 资源 服务 绩效 评价 指标 体系 ” ;ISO2789 
附 异 A 设计 了 可 获取 性 较 强 的 图 书馆 电子 服务 使 用 
评 义 指标 ;网 络 环境 中 国家 公共 图 书馆 统计 和 绩效 
测 允 项 目 发 布 了 《公共 图 书馆 网 络 化 服务 统计 和 绩效 
测 麻 ) 手 册 ” ;美国 国家 信息 标准 组 织 、 美 国 国家 图 书 
饮 骨 信息 科学 国家 委员 会 和 美国 博物 馆 与 图 书馆 服务 
协作 共同 修订 了 美国 图 书馆 统计 标准 (ANSI/NISO 
7Z3977) ,通过 了 一 系列 图 书馆 统计 标准 和 网 络 服务 统 
读 乏 准 ” ;以 及 各 种 基于 COUNTER 报告 的 采购 决策 
实 由 研究 。 

> 国内 高 校 图 书馆 数字 资源 采购 联盟 为 成 员 馆 提供 
了 虐 于 COUNTER 报告 的 使 用 统计 ;中 国 高 等 教育 文 
献 保障 系统 人 China Academic Library & Information Sys- 
temUCALIS) 论述 了 CALIS 数字 资源 评估 指标 体系 的 
评估 对 象 和 评估 内 容 , 列 出 了 完整 的 指标 体系 及 指标 
属性 ,并 提出 了 应 用 指南 ; 肖 珑 论述 了 电子 资源 评 
价 指标 体系 的 建立 方法 及 其 主要 内 容 "” ; 姚 晓 霞 全 面 
介绍 图 书馆 业绩 评估 国际 标准 IS011620, 以 及 EQUT- 
NOX 项 目 发 展 的 电子 图 书馆 业绩 指标 和 EQUINOX 系 
统 ! ;向 英明 探讨 并 建立 了 电子 资源 的 综合 评价 指标 
本 系 及 其 数学 模型 1; 徐 革 运 用 专家 问卷 调查 ,进行 
了 评价 指标 影响 因子 重要 性 程度 和 易 获得 性 的 调查 研 


标 在 我 国 的 适用 性 进行 了 调查 和 分 析 '" ; 索 传 军 参考 
相关 的 国际 、 国 家 标准 及 国内 外 研究 项 目 成 果 , 结 合 我 
到 数据 库 使 用 统计 数据 的 可 获取 情况 ,构建 了 数字 馆 
藏 服务 绩效 的 评估 指标 体系 ” ; 李 新 霞 对 国内 外 数字 
图 书馆 绩效 评估 在 电子 资源 .计算 机 终端 经济 成 本 和 
有 户 培训 方面 的 网 络 服务 统计 指标 体系 和 绩效 评估 指 
标 体系 进行 了 比较 研究 ” ; 张 轶 华 在 总 结 分 析 现 有 评 
价 研究 的 基础 上 ,结合 上 海 交通 大 学 图 书馆 的 实践 经 
验 ,将 构建 综合 评价 模型 分 解 成 评价 指标 遵 选 ,数据 采 
集 及 处 理 指标 权重 设置 3 个 重要 环节 |。 

可 以 看 出 ,以 上 研究 大 多 注重 于 指标 选择 的 指导 
性 原则 、 指 标的 洲 选 .指标 适用 性 的 分 析 , 但 在 指标 值 
的 获取 方面 关注 较 少 ,特别 是 在 内 容 质 量 评价 指标 方 
面 ,由 于 指标 数据 获取 的 复杂 性 ,往往 只 能 依靠 数据 库 
商 和 电子 资源 分 析 平 台 提 供 的 数据 。 依 靠 这 种 方式 只 
能 得 到 单 库 的 指标 ,如 果 涉 及 到 多 库 指标 的 计算 ,研究 
者 所 采用 的 方法 不 一 而 足 ,一 旦 比较 对 象 改 变 ,数据 分 
析 处 理 的 方法 就 得 重新 设计 ,没有 形成 系统 的 指标 量 
化 方法 。 为 了 改变 这 种 现状 ,笔者 特别 针对 外 文 期 刊 
数据 库 的 内 容 质 量 这 一 指标 下 面 的 二 级 指标 ,提出 了 
统一 期 刊 空 间 中 的 多 库 比 较 算法 ,把 等 分 析 的 数据 库 
中 的 期 刊 按 ISSN EISSN 和 刊 名 分 层 映射 到 统一 期 刊 
空间 中 。 而 在 进行 刊 名 映射 时 , 先 通过 刊 名 规范 化 提 
取 刊 名 的 特征 进行 待 选 期 刊 的 圈定 ,然后 再 利用 N- 
Gram 算法 根据 原 刊 名 在 待 选 期 刊 中 选 出 最 佳 匹 配 期 
刊 。 本 研究 中 所 应 用 的 刊 名 规范 方法 是 笔者 在 研究 了 
大 量 不 同 库 的 刊 名 书写 形式 的 基础 上 ,经 过 长 时 间 的 
积累 总 结 提炼 出 来 的 ,保证 了 刊 名 特征 提取 的 精炼 性 
和 简洁 性 。 而 N-Gram 算法 的 引入 使 得 最 佳 刊 名 的 快 
速 匹 配 成 为 可 能 。 
3 内 容 质 量 指标 量化 分 析 及 算法 设计 
3.1 外 文 期 刊 数据 库 内 容 质量 指标 
国外 文献 在 电子 资源 评价 指标 的 遂 选 方面 一 般 只 


提供 指导 性 原则 ,实际 工作 中 大 都 利用 COUNTER 报 
告 指导 图 书馆 进行 电子 资源 的 采购 。 国 内 的 研究 人 员 


| 


究 '”; 刘 军 运用 专家 打分 法 .层次 分 析 法 六 选 评价 指 
标 并 进行 实证 筛选 王 ; ; 唐 琼 开展 专家 问卷 调查 ,采用 
因子 分 析 法 提炼 精简 出 关联 度 最 强 .最 具 代 表 性 的 电 
子 资源 选择 标准 ” ; 和 姐 姐 针对 基于 用 户 满 意 度 的 电 
子 资源 评价 指标 体系 ,通过 模糊 多 属性 决策 方法 综合 
评价 图 书馆 电子 资源 的 利用 情况 ; 刘 文 梅 以 “211 工 
程 高 校 数字 图 书馆 为 研究 对 象 ,对 已 有 研究 提出 的 指 


则 在 指标 的 完整 性 和 系统 性 方面 做 了 充分 的 扩展 ,也 
在 一 定 程度 上 达成 了 共识 。 肖 珑 和 张 宇 红 在 《电子 资 
源 评价 指标 体系 的 建立 初探 》 一 文中 提出 了 电子 资源 
评价 体系 的 6 个 一 级 指标 :电子 资源 内 容 、 检 索 系 统 及 
功能 .使 用 情况 .价值 与 成 本 核算 .出 版 商 / 数 据 库 商 的 
服务 存档” 。 之 后 相关 研究 大 都 按照 这 6 个 一 级 指 
标 建立 相应 的 指标 体系 。 本 研究 着 重 于 第 1 个 一 级 指 
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标 “ 电 子 资 源 内 容 ” 的 量化 分 析 方 面 。 对 于 外 文 期 刊 
数据 库 来 说 ,指标 “电子 资源 内 容 ” 对 应 于 指标 “内容 
质量 ” ,评价 的 是 数据 库 中 期 刊 种 类 的 数量 和 质量 。 其 
下 重要 的 二 级 指标 一 般 有 :中 期 刊 数量 ;@ 现 刊 数 量 / 
比例 ;@JCR/ASNIP 刊 数量 /比例 ;@ 独 有 刊 数量 /比例 。 

分 析 以 上 指标 ,我 们 不 难 发 现 : 

首先 ,这 些 指 标的 量化 涉及 到 多 种 刊 表 。 我 们 把 
用 以 评价 的 数据 库 称 为 源 数据 库 , 源 数据 库 的 刊 表 数 
据 可 从 DRAA 网 站 下 载 . 从 数据 库 服务 平台 下 载 或 向 
数据 库 提 供 商 索取 。 评 价 时 用 作 参 考 的 数据 库 , 如 
JCR 期 刊 库 SNIP 期 刊 库 , 称 之 为 参考 数据 库 ,这 些 参 
考 数据 库 也 可 分 别 从 各 自 的 网 站 下 载 ; 


表 1 期 刊 数量 排名 前 10 的 外 文 期 刊 数据 库 统 计 


数据 库 类 别 ”序号 数据 库 名 称 期 刊 数量 /种 

电子 期 刊 库 1 Journal Storage 3 986 
2 Elsevier ScienceDirect 2 369 
3 Taylor & Francis 期 刊 数据 库 2 356 
4 Springer 电子 期 刊 1 953 
5 Wiley Online Library 1 446 
6 Project MUSE E-journal 639 
2 SAGE 现 刊 数据 库 587 

全 文 数据 库 1 H. W. Wilson 数据 库 20 322 
2 Academic Search Premier 16 387 
3 Academic Search Complete 15 810 


表 2 期 刊 数量 排名 倒数 10 名 的 外 文 期 刊 数据 库 统 计 


其 次 , 按 量化 时 使 用 到 的 期 刊 数据 库 数 量 的 不 同 ， 
选 全 个 指标 又 可 分 为 单 库 指标 、 双 库 指标 以 及 多 库 指 
标 王 其 中 ,期 刊 数量 、 现 刊 数量 /比例 这 两 个 指标 的 量 
6 网 涉及 源 数据 库 自身 ,属于 单 库 指标 ; 指标 JCR/ 
IP 刊 数量 /比例 的 量化 需要 在 源 数据 库 与 参考 库 之 
闻 进 行 期 刊 比 对 ,属于 双 库 指标 ;指标 独 有 刊 数量 / 比 
例 的 量化 涉及 到 多 个 源 数据 库 之 间 的 期 刊 比 对 ,属于 
EE. 

公 ) 除 第 1 个 二 级 指标 之 外 ,其 余 3 个 二 级 指标 只 要 
逢 可 化 出 数量 指标 ,再 将 此 数量 指标 除 以 第 一 个 指标 
“出 数量 " 就 可 得 到 相应 的 比例 指标 值 。 
3, 儿 外 文 期 刊 数据 库 内 容 质量 指标 量化 方法 
单 库 指标 的 量化 相对 比较 简单 ,直接 在 该 源 数据 
库 沟 刊 表 中 进行 统计 即 可 。 以 从 DRAA 网 站 得 到 的 次 
源 青 科 数据 为 例 ,其 刊 表 至 少 包含 以 下 字段 :数据 库 
很 期 刊 名 、 出 版 者 JSSN EISSN ,学 科 分 类 .主题 词 收 
录 范 围 .URL .PLATFORM .DOI 全文 收录 滞后 期 .全文 
收录 起 始 日 期 全 文 收录 结束 日 期 。 利 用 这 些 字段 可 
实现 期 刊 数量 、 现 刊 数量 /比例 指标 的 量化 ,另外 还 可 
以 得 到 一 些 其 他 比较 重要 的 指标 ,如 全 文 收 录 滞 后 期 。 
当然 ,这 些 指标 值 的 获取 都 是 建立 在 数据 准确 .完备 的 
情况 下 ,如 果 相 应 的 字段 值 有 错误 或 者 缺失 较 多 ,就 会 
对 指标 计算 造成 一 定 的 干扰 。 

从 2018 年 DRAA 集团 采购 的 数据 库 中 (以 下 
简称 DRAA 2018 ) 选取 57 个 外 文 期 刊 源 数据 库 ,其 
中 包括 43 个 电子 期 刊 库 和 14 个 全 文 数据 库 , 统 计 
其 关于 内 容 质 量 方面 的 一 些 单 库 指标 ,得 到 其 相应 
的 Top 10 数据 。 同 时 ,为 了 清楚 地 揭示 电子 期 刊 库 
和 全 文 数据 库 各 自 的 数据 ,进行 了 分 组 统计 , 列 出 
电子 期 刊 库 的 前 7 名 和 全 文 数据 库 的 前 3 名 ,如 表 
1 - 表 6 所 示 : 


数据 库 类 别 ” 序 号 数据 库 名 称 期 刊 数量 /种 
电子 期 刊 库 ”1 PNAS 数据 库 1 
2 Science Online 7 
3 SPIE Digital Library 10 
4 American Society for Microbiology 12 
5 The JAMA Network 12 
6 IWA 12 
7 ”SAE 国际 汽车 工程 师 学 会 数据 库 16 
全 文 数据 库 ”1 World Bank 3 
2 EBSCO 食品 科学 全 文 数据 库 867 
3 TWS 台湾 学 术 期 刊 在 线 数据 库 1 738 


表 3 现 刊 数量 排名 前 10 的 外 文 期 刊 数据 库 统 计 


数据 库 类 别 ”序号 数据 库 名 称 现 刊 数量 /种 

电子 期 刊 库 ”1 Taylor & Francis 期 刊 数据 库 2 356 
2 Springer 电子 期 刊 1 953 
3 Elsevier ScienceDirect 1 949 
4 Wiley Online Library 1 446 
5 SAGE 现 刊 数据 库 587 
6 Project MUSE E-journal 562 
Y Oxford Journals Collection 380 

全 文 数据 库 1 H. W. Wilson 数据 库 17 096 
2 Academic Search Premier 14 965 
3 Academic Search Complete 13:773 


表 4 现 刊 数量 排名 倒数 


10 名 的 外 文 期 刊 数据 库 统 计 


数据 库 类 别 ” 序 号 数据 库 名 称 现 刊 数量 /种 

电子 期 刊 库 1 PNAS 数据 库 1 
2 Science Online 6 
3 IMechE Journals Collection 7 
4 ”AIAA 美国 航空 航天 学 会 数据 库 8 
5 SPIE Digital Library 10 
6 ASME 数据 库 12 
7 IWA 12 

全 文 数据 库 1 World Bank 2 
2 EBSCO 食品 科学 全 文 数据 库 657 
3 ”TWS 台湾 学 术 期 刊 在 线 数据 库 854 
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表 5 现 刊 比例 排名 前 10 的 外 文 期 刊 数据 库 统 计 


数据 库 类 别 序号 数据 库 名称 现 刊 数量 /种 期 刊 数量 /种 现 刊 比例 /% 
电子 期 刊 库 1 Taylor & Francis 期 刊 数据 库 2 356 2 356 100. 00 
2 Springer 电子 期 刊 1 953 1 953 100. 00 
3 Wiley Online Library 1 446 1 446 100. 00 
4 SAGE 现 刊 数据 库 587 587 100.00 
5 Oxford Journals Collection 380 380 100. 00 
6 Cambridge Journals Online 367 367 100. 00 
了 Emerald 全 文 期 刊 库 266 266 100. 00 
全 文 数据 库 | Academic Search Premier 14 965 16 387 91.32 
2 EBSCO 环境 科学 全 文 数据 库 1772 1 953 90.73 
3 Academic Search Complete 13 775 15 810 87.13 

表 6 现 刊 比例 排名 倒数 10 名 的 外 文 期 刊 数据 库 统计 

数据 库 类 别 序号 数据 库 名 称 现 刊 数量 /种 期 刊 数量 /种 现 刊 比例 /% 
看 电 子 期 刊 库 1 Journal Storage 0 3 986 0.00 
> 2 IMechE Journals Collection 7 25 28.00 
了 3 ASME 数据 库 12 30 40. 00 

CD ee 

~ 4 AIAA 美国 航空 航天 学 会 数据 库 8 17 47.06 
© 5 IEEE/IET Electronic Library 256 503 50. 89 
OO 6 APS 全 文 电子 期 刊 数据 库 14 22 63.64 
< 十 了 BioOne 数据 库 147 196 75.00 
CC 全文 数 据 所 1 TWS 台湾 学 术 期 刊 在 线 数据 库 854 1 738 49. 14 
CO ABI/INFORM Collection 4 229 7 099 59.57 


© 3 World Bank 2 3 66.67 


和 和 库 指 标 和 多 库 指标 的 量化 比 单 库 指标 的 量化 要 
复 么 一些 。 计 算 双 库 指标 时 ,以 计算 某 源 数据 库 的 
JEIChI 数 量 为 例 ,假设 该 源 数据 库 的 期 刊 所 组 成 的 集 
合 的 A,JCR 参考 库 中 期 刊 所 组 成 的 集合 为 B, 对 A 和 
B 可 交 集 得 到 集合 C ,然后 求 C 的 模 就 得 到 该 源 数据 
库 的 JCR 期 刊 数量 。 在 计算 多 库 指标 时 ,以 计算 源 数 
据 库 的 独 有 刊 数量 为 例 ,假设 该 源 数据 库 的 期 刊 所 组 
成 的 集合 为 A, 其 余 源 数据 库 中 的 期 刊 并 集 为 B, 差 集 
A-B 中 的 期 刊 就 是 独 有 刊 ,其 模 就 是 独 有 刊 的 数量 。 

在 量化 双 库 指标 和 多 库 指标 时 ,最 主要 的 困难 在 
于 期 刊 识别 。 相 当 一 部 分 外 文 期 刊 数据 库 商 提供 的 库 
刊 表 普遍 存在 ISSN 和 EISSN 缺失 、 刊 名 和 出 版 商 等 学 
段 著录 随意 性 较 大 的 问题 ,从 而 导致 期 刊 识别 变 得 困 
难 重重 。 在 只 有 少数 几 个 库 参与 比较 时 ,解决 问题 的 
难度 还 不 是 很 大 , 当 几 十 上 百 个 库 需要 进行 不 同 组 合 
的 比较 时 ,解决 问题 的 难度 就 急剧 上 升 。 在 这 种 情形 
下 ,如 果 没 有 一 个 统一 的 指导 方法 , 双 库 指标 和 多 库 指 
标的 量化 几乎 是 不 可 能 的 事情 。 
3.3 ”多 库 指标 量化 的 复杂 性 分 析 

(1) 相 当 一 部 分 外 文 期 刊 数据 库 商 提供 的 库 刊 表 
存在 ISSN 和 EISSN 都 缺失 的 情况 。 


以 上 述 DRAA 2018 数据 为 例 ,经 统计 共有 57 个 
源 数 据 库 , 其 中 20 个 源 数据 库 出 现 了 ISSN 和 EISSN 
都 为 空 值 的 情况 ,按照 空 值 数 由 大 到 小 的 顺序 排列 , 选 
取 前 5 个 源 数 据 库 , 如 表 7 所 示 : 
表 7 DRAA 2018 中 ISSN 和 EISSN 字段 均 空 的 期 刊 记录 


ISSN 和 EISSN 字段 均 空 的 
期 刊 数 “期刊 总 数 /种 
3 796/7 099 


数据 库 名称 


ABI/INFORM Collection 


H. W. Wilson 数据 库 2 578/20 322 


Business Source Premier 573/6 208 
Business Search Complete 573/6 208 
TWS 台湾 学 术 期 刊 在 线 数据 库 366/1 738 


即使 在 以 高 数据 质量 著称 的 JCR 数据 库 中 , 以 
2018 年 的 JCR 刊 表 (2018 年 WoS 中 SCIE SSCI 与 AH- 
CI 的 合集 ,以 下 简称 JCR 2018 ) 为 例 , 经 统计 ,14 436 条 
期 刊 数据 中 (SCIE 合集 9 238 条 ,SSCI 合集 3 421 条， 
AHCI 合集 1777 条 ) 共 有 9 条 存在 ISSN 和 EISSN 都 为 
空 的 情况 。 造 成 这 种 情况 的 可 能 性 有 多 种 ,可 能 是 本 
来 就 没有 ISSN 和 ISSN ,也 有 可 能 是 著录 人 员 的 疏 忽 
造成 的 。 

(2) 外文 期 刊 数据 库 商 提供 的 库 刊 表 中 刊 名 字段 
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缺少 统一 的 规范 ,著录 时 的 随意 性 较 大 。 

以 DRAA 2018 中 Academic Search Premier 与 Pro- 
Quest Research Library 这 两 个 数据 库 为 例 , 选 取 这 两 个 
库 中 ISSN 相同 的 期 刊 ,比较 这 些 ISSN 相同 的 期 刊 是 


具有 相同 的 ISSN ,其 中 904 条 数据 具有 不 同 的 刊 名 , 具 
体 数 据 见 表 8。 

在 表 8 中 904 条 数据 中 选取 了 12 条 来 展现 刊 名 
不 一 致 的 复杂 情况 , 见 表 9。 


否 具 有 相同 的 刊 名 , 结 习 


发 现 两 库 共 有 2 610 条 数据 


表 8 刊 名 著录 随意 性 统计 


数据 库 名 称 期 刊 总 数 / 种 ISSN 非 空 刊 数 / 种 ISSN 相同 刊 数 /种 ISSN 相同 、 刊 名 不 同 刊 数 / 种 
Academic Search Premier 16 387 16 607 2 610 904 
ProQuest Research Library 6 111 5 601 


表 9 刊 名 著录 随意 性 示例 


ISSN Academic Search Premier 库 中 刊 名 ProQuest Research Library 库 中 刊 名 
8756 -3894 TechTrends: Linking Research & Practice to Improve Learning TechTrends 
8755 -4550 Women & Language Women and Language 
8755 -4178 Journal of Feminist Studies in Religion (Indiana University Press) Journal of Feminist Studies in Religion 
8750 —6874 Informationweek Information Week 
2470 - 9506 South: A Scholarly Journal South 
2411 -7862 Literacy Today (2411 -7862 ) Literacy Today 
2374 -0663 TD.: Talent Development Talent Development 
2234 -8867 Journal of East Asian Economic Integration (JE47) East Asian Economic Review 
2178 -5198 Acta Scientiarium: Education Acta Scientiarum. Education 


2160 -603X Campaigns & Elections (2010) 


1862 -6254 Physica Status Solidi - Rapid Research Letters 


1742 —464X FEBS Journal 


表 9 只 是 列举 了 一 部 分 刊 名 不 一 致 的 情况 ,实际 


的 情形 要 复杂 得 多 。 对 于 具备 ISSN 或 者 EISSN 的 记 


1 需 通 过 ISSN 或 者 EISSN 进行 期 刊 识别 。 对 于 
ISSN 和 EISSN 都 缺失 的 记录 ,需要 通过 其 他 手段 进行 
期 刊 识别 。 笔 者 采用 刊 名 字段 作为 ISSN 和 EISSN 缺 
失 情 况 下 的 辅助 手段 。 首 先 根据 各 种 复杂 的 刊 名 不 一 
致 的 情况 ,提炼 出 刊 名 规范 化 的 规则 。 对 刊 名 应 用 此 
规范 化 规则 ,相当 于 提取 刊 名 特征 。 然 后 通过 刊 名 特 
征 进行 相等 匹配 , 刊 名 特征 相同 则 是 同一 种 刊 。 如 果 
通过 刊 名 特征 匹配 出 现 一 对 多 的 情况 , 则 引进 N-Gram 
算法 ,计算 两 个 原始 刊 名 之 间 的 相似 度 ,选择 相似 度 第 
一 高 者 为 最 佳 匹配 。 
3.4 统一 期 刊 空间 中 的 多 库 比 较 算法 

为 了 进一步 减 小 多 库 指标 量化 的 复杂 度 ,笔者 引 
入 了 统一 期 刊 空间 中 的 多 库 比较 算法 。 该 算法 的 主要 
点 是 把 源 数据 库 和 参考 库 中 的 期 刊 记录 统一 映射 到 
某 个 期 刊 空 间 中 ,使 得 每 种 期 刊 都 具有 一 个 唯一 的 身 
份 识别 码 ,从 而 实现 了 任意 多 库 之 间 的 期 刊 识别 和 比 
对 。 

在 计算 双 库 指标 和 多 库 指标 时 ,涉及 到 源 数 据 库 
之 间 以 及 源 数据 库 与 参考 库 之 间 的 期 刊 比 对 。 以 


Campaigns & Elections 
Physica Status Solidi. Rapid Research Letters 


FEBS Journal, The 


DRAA 2018 为 例 , 其 中 有 57 个 源 数 据 库 ,如 果 为 这 57 
个 源 数 据 库 的 双 库 和 多 库 指标 的 量化 都 单独 设计 一 套 
期 刊 识别 和 比 对 算法 ,其 工作 量 将 是 巨大 而 繁琐 的 。 
为 此 ,这 里 提出 了 统一 期 刊 空间 中 的 多 库 比较 算 
法 。 如 果 能 够 把 各 种 库 中 的 期 刊 统一 映射 到 某 个 库 中 
的 ID, 然 后 基于 这 个 蔬 进行 期 刊 集合 之 间 的 运算 , 那 
么 问题 就 简单 多 了 。 显 然 , 这 个 用 来 进行 期 刊 映射 的 
数据 库 必 须 能 最 大 限度 地 包含 所 有 其 他 数据 库 的 期 
刊 , 乌 利 希 期 刊 数据 库 … 可 以 满足 这 个 要 求 。 乌 利 希 
期 刊 数据 库 收录 了 15 万 个 出 版 商 .39 万 多 种 期 刊 的 详 
细 数 据 , 堪 称 期 刊 数据 大 全 ,是 最 适合 作为 期 刊 比 对 的 
统一 期 刊 空间 的 数据 库 。 本 算法 将 源 数据 库 中 的 期 刊 
记录 按 ISSN FRISSN 和 刊 名 字段 (以 及 规范 化 后 的 刊 名 
字段 ) ,映射 到 乌 利 布 期 刊 数据 库 空 间 中 ,返回 一 个 乌 
利 希 数据 库 中 期 刊 ID( 以 下 简称 jid) 给 相应 的 期 刊 记 
录 , 然 后 各 库 之 间 只 需 使 用 该 jid 进行 相应 的 集合 运 
算 , 即 可 量化 所 需要 的 指标 。 

需要 说 明 的 是 , 马 利 希 数据 库 中 的 jid 在 乌 利 希 网 
站 的 列表 页 面 和 详细 页 面 中 都 是 不 可 见 的 , 当 对 选中 
的 记录 进行 下 载 时 ,能 在 Titleld 字段 看 到 该 jid, 如 图 1 
所 示 : 
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A B C 


| | 
et ISSN 媒体 类 型 状 
12522 jMoving Image 0276-3494 纸 本 已 停刊 MOTION 1972-19?? 


| F | G H 1 | ] 
SubjectCo Publicationl 频率 


图 1 乌 利 希 数据 库 中 期 刊 下 载 文 件 中 的 TitleId 字段 (jid) 


另外 ,在 乌 利 希 期 刊 数据 库 中 , 少数 JSSN 或 
EISSN 在 乌 利 希 数 据 库 中 对 应 多 条 期 刊 记录 ,此 时 还 
需 进行 借助 刊 名 进行 相似 性 比较 , 取 刊 名 相似 度 最 高 
的 jid。 如 果 这 多 个 记录 的 刊 名 相似 度 一 样 , 则 取 第 一 
条 记录 的 jid。 这 样 保证 了 不 同 源 数据 库 中 的 同一 
ISSN 或 EISSN 能 映射 到 乌 利 希 期 刊 空间 中 的 同一 条 
记录 ,尽管 在 乌 利 希 期 刊 空 间 中 对 应 此 ISSN 或 EISSN 
有 多 条 记录 。 

在 进行 映射 时 ,如 果 ISSN 或 EISSN 非 空 , 则 使 用 
ISSN 或 EISSN 的 相等 匹配 在 乌 利 希 期 刊 空 间 中 进行 
ji 的 映射 。 如 果 这 两 者 都 为 空 , 则 使 用 刊 名 进行 匹 
本 泥 此 ,可 以 设计 出 将 源 数据 库 中 的 期 刊 记录 映射 
到 的 利 希 期 刊 空间 的 findUlrichJID 算法 ,算法 具体 如 
名 

所 依法 1 findUlrichJID 


6 richJID( journaltitle ，issn ，eissn ) : 


Wi 于 null 


ww 


Cn = null then 

CN = matchByIssn( journaltitle ，issn ) 
加 图 

ee if eissn! =null then 


my 


Se = matchByElssn( journaltitle, eissn) 
py 


Ga = matchByTitle( journaltitle ) 

EE jid 

〇 使 用 刊 名 匹配 时 ,算法 matchByTite 采用 的 匹配 策 
略 并 不 是 简单 的 刊 名 相等 匹配 。 对 于 那些 ISSN 和 
EISSN 字段 都 为 空 值 的 记录 ,算法 matchByTitle 利用 规 
范 化 后 的 刊 名 进行 相等 匹配 。 为 了 保证 刊 名 规范 化 规 
则 能 尽 可 能 地 适应 各 种 同一 期 刊 在 不 同 数据 库 中 刊 名 
不 一 致 的 情形 ,笔者 提炼 出 如 下 刊 名 规范 化 规则 : 

(1) 删 除 刊 名 中 小 /中 /大 括号 及 其 内 部 包含 的 内 


P< 


As 。 
合 ; 


匣 


号 、 两 边 带 空格 的 连 字 符 及 其 后 


尚 


(2) 删 除 冒 号 、 
面 的 内 容 ; 

(3) 把 “&” 替换 成 《4 AND ”, 即 两 边 带 空 格 的 
AND ; 

(4) 蔡 换 除 数字 字母 和 不 带 空 格 的 连 字符 之 外 
的 其 他 字符 为 空格 ; 

(5 ) 大 写 刊 名 中 所 有 字母 ; 

(6) 合 并 刊 名 中 连续 多 个 空格 为 1 个 空格 ; 


(7) 删 除 刊 名 首尾 处 的 空格 。 

经 过 以 上 7 条 规范 化 规则 的 处 理 ,使 得 不 同 数据 
库 中 同一 期 刊 的 不 同形 式 刊 名 保留 相同 的 基本 特征 ， 
也 使 得 通过 规范 化 的 刊 名 直接 进行 相等 匹配 成 为 可 
能 。 

利用 以 上 规范 化 的 刊 名 进行 映射 后 ,如 果 在 乌 利 
希 期 刊 空间 中 没有 匹配 到 , 则 jid 返回 空 ; 如果 匹 配 到 
乌 利 希 期 刊 空 间 中 的 1 个 jid, 则 返回 该 jid; 如 果 匹 配 
到 多 个 jid, 则 返回 原 刊 名 相似 度 最 高 的 记录 的 jid。 
matchByTitle 的 形式 化 算法 如 算法 2 所 示 : 


算法 2 matchByTitle 


matchByTitle (journaltitle ) : 
ntitle = normalizeTitle( joumaltitle ) // 获 取 源 数据 库 期 刊 刊 名 的 规 
范 化 刊 名 
journalList = getJidListFromUrlich( ntitle) /从 乌 利 希 数据 库 中 获取 
规范 刊 名 相同 的 期 刊 列表 


if journalList. size( ) = =0 then 


return null 
else // 这 里 合并 了 匹配 到 1 个 和 多 个 记录 的 情形 
minScore = 整数 最 大 值 // 得 分 越 小 ,相似 度 越 高 ,该 变量 用 以 保 
存 最 小 得 分 
minJid = -1 // 用 以 保存 相似 度 最 高 的 期 刊 ID 


foreach journal in journalList do 


score = ngram( journaltitle, journal. title ) 
if score < minScore then 
minScore = score 
minJid = journal. jid 
return minjJid 
规范 化 刊 名 用 来 在 乌 利 希 期 刊 空间 中 快速 圈定 疑 
似 期 刊 ,然后 通过 N-Gram 算法 计算 原始 刊 名 相似 度 ， 
选 出 最 合适 的 jid。N-Gram 算法 又 称 N 元 模型 , 它 的 
作用 是 用 来 评估 两 个 字符 串 之 间 的 相似 度 ,这 是 一 种 
模糊 匹配 手段 。 笔 者 设计 的 算法 N-Gram 返回 一 个 
score 值 ,score 越 小 则 两 个 刊 名 的 相似 度 越 高 。 其 形式 
化 算法 如 算法 3 所 示 : 
算法 3 N-Gram 
ngram( journaltitlel ,journaltitle2 , n) : //n 为 N-Gram 中 的 N, 一 般 设 
为 2 或 3 
ss="" /Ass 为 长 度 为 n -1 的 以 空格 填充 的 字符 串 
strl = ss + upcase(journaltitlel ) + ss // 在 大写 化 后 的 journaltitlel 
两 边 补 充 字 符 串 ss 
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st2 = ss + upcase(journaltitle2) + ss// 在 大 写 化 后 的 journaltitle2 
两 边 补 充 字符 串 ss 
lenl = len(strl) 
len2 = len(st2 ) 
fori=0…(lenl -n) do // 从 左 至 右 ,把 stl 按 n 个 字符 进行 切 分 ， 
并 加 入 到 集合 中 
setl. add(strl [i:i+n]) 
for i=0…(len2 -n) do // 从 左 至 右 ,把 st2 按 n 个 字符 进行 切 分 ， 
并 加 入 到 集合 中 
set2. add (sh2 [i:i+n]) 
set3 = setl & set2 // 集 合 setl 与 集合 set2 求 交 集 得 集合 set3 
nl =len(setl ) //nl 为 集合 setl 的 元 素 个 数 
n2 =len(set2 ) //n2 为 集合 set2 的 元 素 个 数 
n3 =len(set3 ) //n3 为 集合 set3 的 元 素 个 数 
score = nl +n2-2* n3 
tin Score 
二 在 本 研究 中 ,将 算法 N-Gram 中 的 参数 n 设 为 3 
C9 所 有 在 乌 利 希 期 刊 空 间 中 没有 映射 上 的 期 刊 , 包 
ey ISSN 和 EISSN 没有 映射 上 的 和 通过 刊 名 没有 


的 ,都 排除 在 后 续 的 期 刊 比 对 之 外 。 


4 局 双 库 及 多 库 指标 的 量化 


Now DRAA 2018 中 357 个 源 数据 库 和 参考 库 JCR 


2 位 8(2018 年 WOS 中 SCIE、SSCI 与 AHCI 的 合集 ) 为 
倚 震 示 其 在 乌 利 希 期 刊 空间 中 的 映射 结果 ,并 计算 
DRRA 2018 中 57 个 源 数据 库 的 JCR 期 刊 数量 /比例 与 
铬 并 刊 数量 /比例 这 两 个 关键 指标 。 当 然 ,计算 的 前 提 
是 鞠 完 成 DRAA 2018 库 刊 表 与 JCR 期 刊 表 到 乌 利 希 
期 天 空间 的 映射。 
4. DRAA 2018 在 乌 利 希 期 刊 空间 的 映射 

使 用 本 研究 中 的 统一 期 刊 空间 中 的 期 刊 映射 算 
法 ,以 马 利 希 期 刊 库 作为 统一 期 刊 空 间 , 对 DRAA 2018 
进行 jd 映射 ,映射 结果 如 表 10 所 示 : 


表 10 DRAA 2018 在 乌 利 希 期 刊 空间 中 的 映射 结果 


匹配 结果 匹配 条 件 ee 
0 匹配 ISSN( 有 ISSN) 5 447 
EISSN( 无 ISSN, 有 EISSN ) 230 
规范 化 刊 名 (无 ISSN ,无 EISSN) 4 574 
唯一 匹配 ISSN( 有 ISSN) 88 844 
EISSN( 无 ISSN ,有 EISSN) 3 519 
规范 化 刊 名 (无 ISSN ,无 EISSN) 822 
多 个 匹配 , 取 最 佳 刊 名 匹配 ISSN( 有 ISSN ) 2 353 
EISSN( 无 ISSN, 有 EISSN ) 25 
规范 化 刊 名 (无 ISSN ,无 EISSN) ”3766 
期 刊 总 计 109 580 


经 统计 ,DRAA 2018 到 马 利 希 期 刊 空 间 的 映射 率 
约 为 91% ,大 约 有 9% 的 记录 没有 映射 上 ,如 图 2 所 
不 : 


期 刊 数量 
匹配 取 最 佳 者 没 匹配 上 


6 AN 


R 


唯一 匹配 
85% 


图 2 DRAA 2018 在 乌 利 希 期 刊 空间 的 映射 率 


没有 映射 上 的 最 大 原因 可 能 有 3 个 :四 DRAA 
2018 中 存在 错误 记录 ;@) 乌 利 希 期 刊 数据 库存 在 错误 
记录 ;@@ 乌 利 硕 期 刊 数据 库 中 的 期 刊 记录 不 全 。 
4.2 JCR 2018 在 乌 利 希 期 刊 空间 的 映射 

运用 同样 的 算法 ,得 到 了 参考 库 JCR 2018 在 乌 利 
希 期 刊 空间 中 的 映射 结果 ,如 表 11 所 示 : 

表 11 JCR 2018 在 乌 利 希 期 刊 空间 中 的 映射 结果 


匹配 结果 匹配 条 件 
0 匹配 ISSN( 有 ISSN ) 34 
EISSN( 无 ISSN ,有 EISSN) 4 
规范 化 刊 名 (无 ISSN ,无 EISSN ) 2 
唯一 匹配 ISSN( 有 ISSN ) 13 939 
EISSN( 无 ISSN ,有 EISSN) 328 
规范 化 刊 名 (无 ISSN ,无 EISSN) 2 
多 个 匹配 , 取 最 佳 刊 名 匹配 ISSN( 有 ISSN) 120 
FEISSN( 无 ISSN ,有 EISSN) 
规范 化 刊 名 (无 ISSN ,无 EISSN) 5 
期 刊 总 计 14 436 


经 统计 ,JCR 2018 在 乌 利 希 期 刊 空间 中 的 匹配 率 
达到 了 约 99% ( 见 图 3)。 这 么 高 的 匹配 率 也 说 明了 
JCR 期 刊 数据 正确 率 很 高 ,同时 也 说 明了 JCR 期 刊 很 
重要 ,基本 都 被 乌 利 希 期 刊 数据 库 收 录 。 

4.3 DRAA 2018 中 各 库 的 JCR 期 刊 数 量 和 比例 

现在 ,可 以 使 用 以 上 的 映射 结果 ,量化 DRAA 2018 
中 各 源 数据 库 的 JCR 期 刊 数量 和 比例 。 其 主要 算法 就 
是 先 求 出 DRAA 2018 中 各 库 的 jid 集合 与 JCR 2018 的 
jid 集合 的 交集 ,然后 对 交集 求 模 ,得 到 DRAA 2018 中 
各 源 数据 库 的 JCR 期 刊 数量 ,再 把 JCR 期 刊 数量 除 以 
源 数 据 库 期 刊 总 数 , 即 得 该 源 数 据 库 的 JCR 期 刊 比例 。 
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期 刊 数量 


匹配 取 最 佳 者 没 匹 配 上 
0.88% 


惧 


3 JCR 2018 在 乌 利 希 期 刊 空间 的 映射 率 


限于 篇 幅 , 表 12 和 表 13 分 别 列 出 了 JCR 期 刊 数量 正 
数 前 10 名 和 倒数 前 10 名 的 源 数据 库 , 表 14 和 表 15 分 
别 列 出 了 JCR 期 刊 比例 正 数 前 10 名 和 倒数 前 10 名 源 
易 氟 库 。 同样 ,为 了 清楚 地 揭示 电子 期 刊 库 和 全 文 数 
据 库 各 自 的 数据 ,进行 了 分 组 统计 ,并 按 7:3 的 比例 分 
别 展 示 电子 期 刊 库 与 全 文 数据 库 的 结 
表 12 DRAA 2018 中 JCR 期 刊 数 量 正 数 

前 10 名 的 源 数据 库 统计 


.0073 


JCR 期 刊 期 刊 总 数 JCR 期 刊 


类 别 数据 库 名 


数量 /种 /种 ”比例 /% 

Lom 库 Elsevier ScienceDirect 1605 2369 67.75 

© Journal Storage 1198 3986 € 30.06 

CN Wiley Online Library 1 194 1446 82.57 

ee Springer 电子 期 乔 1186 1953 60.73 
J 


Taylor & Francis 期 刊 数 据 库 1 077 2 356 45.71 


SAGE 现 刊 数据 库 325 587 93.37. 
Project MUSE E-journal 312 639 48. 83 
据 库 Academic Search Premier 6 112 16 387 37.30 


Academic Search Complete 6 082 15 810 38.47 
H. W. Wilson 数据 库 4 008 


chinaX 


20 322 19,72 


表 13 DRAA 2018 中 JCR 期 刊 数量 倒数 


10 名 的 源 数据 库 统 计 
数据 库 类 别 数据 库 名 | 
电子 期 刊 库 PNAS 数据 库 1 1 100. 00 
SAE 国际 汽车 工程 师 学 会 数据 库 。 1 16 6.25 
Thieme E-joumals 1 37 2.70 
Science Online 六 2 71.43 
AIAA 美国 航空 航天 学 会 数据 库 。 7 17 41.18 
SPIE Digital Library 了 10 70.00 
APS 全 文 电 子 期 刊 数 据 库 8 22 36.36 
全 文 数据 库 World Bank 0 3 0.00 
TWS 台湾 学 术 期 刊 在 线 数据 库 ”34 1738 1.96 
EBSCO 食品 科学 全 文 数据 库 422 867 48.67 


表 14 DRAA 2018 中 JCR 期 刊 比例 正 数 


前 10 名 的 源 数 据 库 统 计 
数据 库 类 别 数据 库 名 i oR ds 
数量 /种 /种 比例 /% 
电子 期 刊 库 PNAS 数据 库 1 1 100. 00 
SIAM E-journals Package 16 17 94.12 
Nature 研究 月 刊 /评论 月 刊 45 49 91.84 
IWA 11 12 91.67 
The JAMA Network 11 12 91.67 
AIP 全 文 电子 期刊 及 会 议 录 数 据 库 “22 24 91.67 
Cell Press 16 18 88. 89 
全 文 数据 库 ProQuest Biological Science 2096 3114 67.31 
Collection 
PHMC/PML 1 834 3 480 52.70 
ProQuest Agricultural 1923 3818 -50.37 


Science Collection 


表 15 DRAA 2018 中 JCR 期 刊 比例 倒数 


10 名 的 源 数据 库 统计 
总 2! 
SR 
电子 期 刊 库 Thieme E-journals 1 37 2.70 
SAE 国际 汽车 工程 师 学 会 数据 库 ”1 16 6.25 
Bentham Science 41 225 18.22 
Emerald 全 文 期 刊 库 57 266 21.43 
Begell Digital Library 11 42 26. 19 
Journal Storage 1198 3986 30.06 
APS 全 文 电子 期 刊 数据 库 8 2 36.36 
全 文 数据 库 World Bank 0 3 0.00 
TWS 台湾 学 术 期 刊 在 线 数 据 库 34 1 738 1.96 
ABI/INFORM Collection 648 7 099 9.13 


通过 对 以 上 表格 数据 进行 对 比 可 以 发 现 ，DRAA 
2018 的 43 个 电子 期 刊 库 中 ,没有 一 个 电子 期 刊 库 能 
在 JCR 期 刊 数量 和 比例 中 同时 占据 前 7 名 ,而 SAE 
际 汽车 工程 师 学 会 数据 库 、Thieme E-journals 、 以 及 APS 
全 文 电子 期 刊 数据 库 同 时 占据 了 JCR 期 刊 数量 和 比例 
后 7 名 的 位 置 。 同 样 ,DRAA 2018 的 14 个 全 文 数 据 库 
中 ,没有 一 个 全 文 数 据 库 能 够 在 JCR 期 刊 数量 和 比例 
中 同时 占据 前 3 名 ,而 World Bank 和 TWS 台湾 学 术 期 
刊 在 线 数据 库 同时 占据 了 JCR 期 刊 数量 和 比例 后 3 名 
的 位 置 。 
4.4 DRAA 2018 中 各 库 的 独 有 刊 数量 和 比例 

利用 以 上 的 映射 结果 ,同样 可 以 很 方便 地 量化 
DRAA 2018 中 各 源 数据 库 的 独 有 刊 数量 和 比例 。 其 主 
要 算法 是 先 求 出 DRAA 2018 中 某 源 数据 库 的 jid 集合 
与 DRAA 2018 其 余 源 数据 库 的 jid 集合 的 差 集 , 然 后 
对 差 集 求 模 , 得 到 该 源 数据 库 库 的 独 有 刊 数量 ,再 把 源 
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数据 库 的 独 有 刊 数量 除 以 源 数据 库 的 期 刊 总 数 , 即 得 
源 库 的 独 有 刊 比例 。 限 于 篇 幅 , 表 16 和 表 17 分 别 列 
出 独 有 刊 数量 正 数 前 10 名 和 倒数 前 10 名 DRAA 2018 
源 数 据 库 , 表 18 和 表 19 分 别 列 出 了 独 有 刊 比例 正 数 
前 10 名 和 倒数 前 10 名 DRAA 2018 源 数 据 库 。 在 计算 
独 有 刊 指标 时 ,参与 比较 的 数据 库 没有 区 分 电子 期 刊 
库 和 全 文 数据 库 , 但 在 展示 排名 时 ,还 是 按 7:3 的 比例 
分 别 列 出 了 电子 期 刊 库 和 全 文 数据 库 各 自 的 结果 。 
表 16 DRAA 2018 中 独 有 刊 数量 正 数 前 
10 名 的 源 数 据 库 统 计 
独 有 刊 期 刊 总 数 ” 独 有 刊 


数据 库 类 别 数据 库 名 


数量 /种 /种 比例 /% 
电子 期 刊 库 Springer 电子 期 刊 740 1 953 37.89 
Elsevier ScienceDirect 733 2 369 31.03 
™ 
~y Journal Storage 592 3 986 14. 85 
Taylor & Francis 期 刊 数 据 库 372 2 356 15.79 
CO) SAGE 现 刊 数据 库 206 587 35.09 
ee LWW 医学 全 文 期 刊 数据 库 185 289 64.01 
PR 
©S Project MUSE FE-journal 129 639 20. 19 
全 文 数据 庆 H. W. Wilson 数据 库 5894 20322 29.00 
a ABI/INFORM Collection 2 462 7 099 34.68 
OO 
PY¥ ProQuest Research Library 858 6 111 14.04 


© 表 17 DRAA 2018 中 独 有 刊 数量 倒数 
EN 本 
A 10 名 的 源 数据 库 统计 
et 
a 独 有 刊 、 期 刊 总 数 独 有 刊 
数据 这 类 别 数据 库 名 > 
效 揭 让 类 别 数据 库 名 数量 /种 /种 比例 /% 
电 人 期 刊 启 APS 全 文 电子 期 刊 数据 库 0 22 0.00 
CC IWA 0 12 0.00 
= PNAS 数据 库 0 1 0.00 
二 The JAMA Network 0 12 0.00 
British Medical Journals 3 3.23 
Science Online 1 有 14.29 
AGU 美国 地 球 物理 学 会 数据 库 2 18 11.11 
全 文 数 据 库 Business Search Complete 0 6 208 0.00 
Business Source Premier 0 6 208 0.00 
World Bank 3 3 100. 00 


从 以 上 4 个 表格 可 以 看 到 ，DRAA 2018 的 43 个 
电子 期 刊 库 中 ,没有 一 个 电子 期 刊 库 能 够 在 独 有 刊 数 
量 和 比例 中 同时 占据 前 7 名 ,而 APS 全 文 电子 期 刊 数 
据 库 、IWA PNAS 数据 库 、The JAMA Network、 以 及 
British Medical Journals 同时 占据 了 独 有 刊 数量 和 比例 
后 7 名 的 位 置 。 在 DRAA 2018 的 14 个 全 文 数据 库 中 ， 
H. W. Wilson 数据 库 与 ABILAINFORM Collection 在 独 有 
刊 数量 和 比例 中 同时 占据 了 前 3 名 , Business Search 
Complete 与 Business Source Premier 同时 占据 了 独 有 刊 


数量 和 比例 后 3 名 的 位 置 。 


表 18 DRAA 2018 中 独 有 刊 比例 正 数 前 
10 名 的 源 数据 库 统计 


独 有 刊 ” 期 刊 总 数 ” 独 有 刊 


数据 库 类 别 数据 库 名 


数量 /种 /种 比例 /% 

电子 期 刊 库 Thieme E - journals 36 27 97.30 

Begell Digital Library 38 42 90.48 

RSC 英国 皇家 化 学 学 会 期 刊 39 55 70.91 

及 数据 库 

LWW 医学 全 文 期 刊 数据 库 185 289 64.01 

American Society for Microbiology 这 12 58.33 

Bentham Science 125 225 55.56 

Independent Scholarly 17 31 54. 84 

Publishers Group 

全 文 数据 库 World Bank 3 3 100. 00 
ABIL/INFORM Collection 2 462 7 099 34.68 

H. W. Wilson 数据 库 5 894 20:322 29. 00 

表 19 DRAA 2018 中 独 有 刊 比例 倒数 
10 名 的 源 数据 库 统 计 

| 二 独 有 刊 期 和 总数“ 独 有 有 
数量 /种 /种 比例 /% 

电子 期 刊 库 ” APS 全 文 电子 期 刊 数 据 库 0 22 0.00% 
IWA 0 12 0.00% 

PNAS 数据 库 0 1 0.00% 

The JAMA Network 0 起 0.00% 

British Medical Journals 1 31 3.23% 

Wiley Online Library 13 1 446 5.19% 

AIP 全 文 电子 期 刊 及 会 议 录 2 24 8.33% 

数据 库 

全 文 数 据 库 Business Search Complete 0 6 208 0.00% 
Business Source Premier 0 6 208 0.00% 

Academic Search Complete 22 15 810 0.14% 


5 算法 分 析 

采用 统一 期 刊 空间 中 的 多 库 比 较 算法 ,主要 有 以 
下 几 个 优点 : 

(1) 一 次 映射 ,多 次 比较 。 一 个 数据 库 一 旦 映射 
到 统一 的 期 刊 空间 后 ,就 可 以 与 同样 映射 到 此 期 刊 空 
间 的 其 他 源 库 或 参考 库 ,进行 任意 的 组 合 比较 ,无 须根 
据 比 较 库 的 不 同 而 重新 调整 比 对 策略 。 

(2) 准 确 率 高 。 只 利用 ISSN 和 EISSN 对 期 刊 进行 
比 对 的 算法 ,忽略 了 ISSN 和 EISSN 都 为 空 值 的 期 刊 ; 
只 利用 规范 化 刊 名 对 期 刊 比 对 的 算法 ,很 容易 把 不 同 
刊 的 刊 名 规范 成 一 样 的 刊 名 ,容易 造成 统计 误差 的 扩 
大 。 利 用 ISSN 、EISSN 和 刊 名 字段 ,但 在 刊 名 比 对 时 没 
有 对 刊 名 进行 预 处 理 或 者 只 进行 了 简单 的 预 处 理 , 也 
容易 扩大 后 续 的 统计 误差 。 
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(3) 有 利于 对 非 刊 记 录 与 错误 记录 的 排除 。 在 数 
据 库 商 提供 的 期 刊 列表 中 ,发 现 错 误 是 之 不 奇怪 的 事 
情 , 而 把 这 些 期 刊 统一 映射 到 同一 个 期 刊 空间 中 ,有 助 
于 把 一 些 非 刊 记录 和 错误 记录 剔除 出 去 。 虽 然 此 期 刊 
空间 的 期 刊 记 录 也 不 能 保证 是 完备 的 ,但 是 由 于 所 有 
参与 比较 的 数据 库 都 统一 映射 到 该 空间 ,所 以 避免 了 
库 与 库 之 间 单 独 比 较 时 采用 不 同 的 标准 
当然 ,采用 统一 期 刊 空间 中 的 多 库 比较 算法 ,相关 
指标 量化 的 正确 性 依赖 于 统一 期 刊 空 间 的 质量 。 如 果 
统一 期 刊 空间 中 的 数据 正确 率 不 高 ,数据 不 全 ,或 者 一 
致 性 较 差 , 也 会 给 指标 的 量化 带 来 一 定 的 误差 。 


6 结语 


Le] 


一 独 有 刊 由 于 比较 范围 的 不 同 ,可 分 为 绝对 独 有 刊 
条 对 外 用 有 些 期 刊 由 出 版 社 独家 授权 给 数据 库 
提 人 商 发 行 , 则 这 些 期 刊 对 数据 库 商 来 说 是 绝对 独 有 
到 但 是 对 于 图 书馆 来 说 ,追求 的 不 仅仅 是 绝对 独 有 
和 对 独 有 刊 也 是 很 重要 的 指标 。 相 对 独 有 刊 的 比 
较 污 围 限定 在 图 书馆 的 电子 资源 采购 目录 或 某 一 特定 
的 车 国之 内 。 数 据 库 商 能 给 图 书馆 提 供 的 是 绝对 独 有 
寅 如 数量 ,但 是 相对 独 有 刊 的 数量 就 需要 图 书馆 自 己 
车 矶 了 。 采 用 本 研究 的 成 果 , 运 用 基于 同一 期 刊 空间 
捕 齐 库 比 较 算 法 , 则 很 容易 计算 相对 独 有 刊 ,同时 也 很 
方便 在 增加 或 去 除 一 个 或 多 个 数据 库 之 后 ,考察 独 有 
全 区 布 的 调整 。 笔 者 对 DRAA 2018 的 57 个 源 数据 库 
计 医 独 有 刊 指标 ,实际 上 也 是 相对 独 有 刊 指标 的 计算 。 
其 得 通 常 大 于 绝对 独 有 刊 ,所 选 定 的 数据 库 范围 越 大 ， 
风 幅 对 独 有 刊 指标 越 接近 于 绝对 独 有 刊 指标 。 

在 此 基础 上 ,同样 可 以 衍生 更 多 内 容 质量 方面 的 
二 级 指标 ,如 全 文 刊 JCR 全 文 刊 JCR 现 刊 SNIP 全 文 
刊 .SNIP 现 刊 .OA 全 文 刊 .OA 现 刊 , 独 有 全 文 刊 独 有 
现 刊 等 。 只 要 获取 到 合适 的 数据 ,利用 本 研究 的 算法 ， 
可 以 很 方便 地 计算 出 这 些 指标 。 

外 刊 数据 库 采购 是 图 书馆 资源 经 费 使 用 的 重要 组 
成 部 分 ,而 内 容 质量 是 外 刊 数据 库 评价 指标 中 的 重 中 
之 重 ,精确 量化 其 中 的 二 级 指标 对 采购 决策 意义 重大 。 
本 研究 针对 外 文 期 刊 数据 库 内 容 质量 方面 的 指标 量化 
算法 ,提出 了 在 统一 期 刊 空间 中 进行 期 刊 比 对 的 方法 ， 
并 对 JCR 期 刊 数量 /比例 与 独 有 刊 数量 /比例 做 了 实证 


人 研究 ,以 期 为 图 书馆 的 资源 建设 和 推广 利用 提供 有 力 
的 支撑 ,使 得 馆藏 资源 的 建设 更 加 合理 经 济 。 
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Quantitative Research on Content Quality Indicators of Foreign Journal Database 
Zhuang Jilin Chen Ling Yao Xiaoxia 
Peking University Library ，Beijing 100871 

= Abstract: | Purpose/significance | Aiming at the quantification of double-base and multi-base indicators of con- 
taht quality of foreign journal database, a multi-base comparison algorithm based on unified journal space is pro- 
heped, which realizes the journal identification and comparison between arbitrary multi-bases, and improves the 

ntification accuracy of these indicators. | Method/process | On the basis of analyzing the content and complexity 
SS content quality indicators of foreign journal databases, this paper designed a multi-database comparison algo- 
ihm based on unified journal space, and used this algorithm to calculate the number of JCR journals and the number 
CDunique journals of 57 databases in DRAA in 2018, as a verification of the validity and accuracy of the algorithm. 

esult/ conclusion | As an extension study of various electronic resource evaluation indicator systems, this study 
Ci help libraries optimize their collection construction and make the purchase of foreign journal databases more eco- 
Ohioal and reasonable. 


> Keywords: foreign journals database evaluation content quality indicator quantification unified journal 


《知识 管理 论坛 》 首 获 影响 因子 


近日 ,中 国 知 网 CNKI 与 中 国 科学 文献 计量 评价 研究 中 心 联合 发 布 了 《中 国学 术 期 刊 影响 因子 年 报 ( 人文 社 会 
科学 . 2020 版 )》《 知 识 管理 论坛 》 入 选 2020 年 中 国学 术 期 刊 影响 因子 年 报 》 统 计 源 期 刊 。 在 图 书馆 学 情报 学 46 | 
种 期 刊 中 ,该 刊 复合 影响 因子 JIF 达 0.954 ,位 列 第 24 各; 期刊 综合 影响 因子 JIE 达 0.471, 位 列 第 31 名 ;人 文 社 科 | 


影响 因子 IF 达 0.379 ,位 列 第 31 名 ;影响 力 指数 CI 值 达 65.419 ,位 列 第 33 名 。 这 是 《知识 管理 论坛 ) 首 次 获得 影 


; 
1 
， 
1 
: 响 因子 。 
; 
; 
; 
) 


《知识 管理 论坛 > 是 知识 管理 领域 学 术 期 刊 , 跨 学 科 , 纯 网 络 ,开放 获取 ,实行 严格 的 同行 评议 ,并 于 2017 年 通 
过 国际 知名 开放 获取 平台 DOAJ 的 评估 并 被 其 收录 。 本 次 入 选 《 中 国学 术 期 刊 影响 因子 年 报 》 统 计 源 期 刊 标志 着 
《知识 管理 论坛 ) 的 学 术 质 量 和 影响 力 得 到 权威 评价 体系 的 认可 ,今后 还 需 继续 努力 ,聚焦 知识 管理 的 热点 和 前 沿 
的 桥梁 ,并 成 为 学 术 界 和 业界 的 专 


] 


问题 ,引领 中 国 知识 管理 未 来 发 展 方向 , 架 起 中 国 知识 管理 理论 研究 和 实践 应 
家 \ 作 者 和 读者 的 精神 家 园 。 
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